用户画像从0到100的构建思路

数据仓库与Python大数据 2022-08-17

The following article is from DataFunTalk Author 杨帆、杨楠楠

在介绍画像构建时，我们把工作分为两步。

第一步：介绍从0到1的构建思路。

第二步：介绍从1到100的构建思路。

用户画像从0到1的构建思路

一个比较成熟的画像系统会有成百上千的标签，这些标签的生产不是一次完成的，而是随着业务的发展需要，逐步补充完善，最终呈现在大家眼前的就是一棵庞大的标签树。

跟自然界的树木一样，标签树要想长得茁壮参天，也必须有一个稳定的根基和合理的结构。在用户画像的构建前期，最重要的是搭好画像骨架，确保后续的发展过程中，依然保持清晰的结构和高延展性。相反，如果一开始为了抢时间，将大量标签无序地堆在线上，后期管理和使用的难度会迅速凸显出来，重构的代价巨大。

上面说到，一个好的标签树结构要满足两个条件：高概括性和强延展性。高概括性意味着结构体系能够很好地包含一个用户的基本属性和产品交互的相关行为，同时对于业务重点单独强调，没有遗漏；强延展性意味着结构全面的同时也有一定的抽象概括能力，保证新增的标签可以很好地找到对应的分类，整个体系不会过于收敛局限。

按照这个原则，画像通常从8个维度组织标签，分别为基本属性、平台属性、行为属性、产品偏好、兴趣偏好、敏感度、消费属性、用户生命周期及用户价值。

图11-2所示为用户画像整体架构示例，下面来具体介绍。

1
基本属性

基本属性是指一个用户的基本社会属性和变更频率低的平台特征，例如真实社会年龄、性别、婚姻状况、昵称、号码、账号、IBS等标签。这些标签类型多为直采型，可从用户基本信息表中直接获取，不需要统计或者算法挖掘。

示例：社会性别_女。

2
平台属性

平台属性是用户在平台上表现出的基本属性特征，是利用用户行为进行算法挖掘，标识用户真实属性的标签。

典型的平台属性标签有平台年龄标签，这里你可能有个疑问，为什么在用户的基础属性中已经有年龄标签，但在平台属性中又有一个呢？这就涉及两者之间的差别。设想一个真实的场景，一个用户的社会年龄为20岁，但他喜欢中年人的穿衣风格，在使用App购物的时候，表现出的真实偏好是30~40岁的。对于这类使用产品时表现出的用户心智和真实年龄不相符合的用户，如果只采用用户上传的基本属性来为其推荐产品，是不是很难命中个体用户的兴趣呢？

两种不同的标签，本质上是用户自己上传信息的随意性和挖掘信息的权威性差异，是用户社会属性和真实属性差异。

我们仔细分析一下两者在数据源、计算逻辑、标签格式、标签值和应用场景等方面的差异，如下。

（1）数据源与计算逻辑方面

基本属性直接利用用户自行上传的、存储在用户基本信息表里的数据，平台属性则利用客户端或者服务端埋点上报采集的用户行为数据进行挖掘计算生成。基本属性是典型的直采型标签，平台属性是典型的算法挖掘型标签。

（2）末级标签和输出标签值方面

以性别为例，基本属性代表用户真实的社会身份，是确定的事实，典型标签形式为“性别_女”，而平台属性则代表用户在性别维度的偏好概率，典型形式为“性别_女_0.80”，其中“女”为末级标签，“0.80”则代表用户在平台的女性身份上表现出的倾向程度。

（3）应用场景方面

平台属性通过用户行为进行挖掘，更能代表用户的真实倾向，输出结果比基本属性准确率高，在定向营销和算法里，年龄、性别等通常采用平台属性。而社会属性中电话、身份证、账号、昵称等使用较多。

3
行为属性

行为属性记录的是用户的全部单点行为。用户的单点行为有很多，包括启动、登录、浏览、点击、加车、下单等，而且结合不同的产品、不同的模块交互、不同的时间窗选取，行为就更加复杂了，要想全面梳理，可以按照“产品×功能模块×用户单点行为×时间”四大要素来组织。

这里“产品×功能模块×用户单点行为×时间”的意思是，一个完整的行为应该包含“哪个产品”“哪个功能模块”“哪个行为”“哪些时间要求”四大要素，例如某浏览器体育频道最近一次访问时间。按照这四大要素组织行为，不容易发生遗漏。

示例：初次登录产品时间，最后一次启动距今时间，30天内搜索行为频次，一个月内闪屏访问次数等。

4
产品偏好

产品偏好是对用户使用某些产品、产品核心功能或者其他渠道的偏好程度的刻画，属于挖掘型标签，其中产品的选取可以包括自家产品、竞品；功能和渠道既包括站内产品功能，也包括push、短信、开屏、弹窗等几大运营和产品法宝。

示例：搜索模块偏好、直接竞品_京东偏好、短信偏好。

5
兴趣偏好

兴趣偏好是用户画像内非常重要的维度，以电商产品为例，用户对商品的喜爱程度是用户最终的信息之一，兴趣偏好是对用户和物品之间的关系进行深度刻画的重要标签，其中最典型的是品牌偏好、类目偏好和标签偏好。

示例：品牌偏好_优衣库_0.91、类目偏好_美妆_0.80、标签偏好_红色_0.70。

6
敏感度

在做营销活动时，我们留意到有些用户不需要优惠也会下单，而有些用户一定要有优惠券刺激才会下单，而且优惠券的额度会影响其下单的金额。这种情况下，如何识别出对优惠敏感的用户并为其发放合理券额的优惠券，保证优惠券不浪费，从而使促销活动的ROI最大？其中一个很重要的标签就是用户的敏感度标签。敏感度代表用户对平台活动或者优惠的敏感程度，也是典型的挖掘类标签。

示例：热点敏感度、折扣敏感度。

7
消费属性

无论是电商、内容还是其他领域，公司的目标最终都是收益，所以消费属性往往作为一个单独的维度重点刻画。消费属性既包括统计型标签—消费频次、消费金额、最近一次消费时间等，也包括挖掘型标签—消费能力和消费意愿，还包括敏感度标签—优惠促销敏感度、活动敏感度、新品敏感度、爆款敏感度等。

8
用户生命周期及用户价值

用户生命周期是用户运营的重要法典，一个用户从进入产品到离开，通常会经历“新手”“成长”“成熟”“衰退”“流失”这5个典型阶段，每个阶段对用户的运营都存在策略差异，画像在其中的作用是明确标记用户所处生命周期的阶段，便于后续业务人员落地。

用户价值是体现用户为产品贡献价值高低的标签，最经典的是通过RFM模型获得交易维度标签，此外，也应该看到用户的其他价值，例如为产品贡献活跃度，通过裂变拉来新用户，这些都可设计相应的标签。

示例：新手、成长、成熟、衰退、流失、高价值用户、VIP等级等。

用户画像从1到100的构建思路

前面我们介绍了如何搭建用户画像的基础框架，这一节讨论一下，有了基础框架，到底应该如何着手一步步完善画像标签树，如何从一个基于业务的需求落地为标签的设计，如何将标签应用到具体的业务中。

要解决“如何做”和“如何用”这两大问题，要从问题的根本开始思考，也就是我们为什么要做用户画像，用户画像的作用是什么。了解了这些问题，便能水到渠成，根据用途合理地设计方案。

用户画像的主要目的有以下3个：

用于用户信息的统计，建立对产品、对用户的基本认知；
用于用户定向营销，利用人群圈选投放物料；
用于算法，沉淀用户特征，供模型使用。

标签的完善也可以按照这3个维度不断丰富，以下分别举例说明标签建设的思路。

1
用于统计，对产品、用户的基本认知

每个产品功能策略的完善，都需要建立在对产品、对用户的充分认知基础上，也就是说，用户是谁，有何特点，基本情况如何，这些是用户画像需要回答的重要问题。

思路拆解：既然要了解用户的基础信息，就需要将用户基本属性进行拆解，包括年龄、性别、居住城市（几线）、家庭结构（婚否、孩否）等。为了盈利考虑，还需要了解基本的收入水平、消费能力等。将拆解的维度抽象，构建对应标签，然后进行分布统计，便能生成一份基本的用户认知报告。

标签结果：年龄、性别等。

2
用于定向营销和精细化运营

运营人员作为画像的重要业务使用方，每天都会通过标签圈选人群，做定向的用户、活动、内容精细化运营，以及各App每天都在进行的促销活动。这些运营和活动的场景分布在产品的各个渠道和各个资源位，对场景和人群的精细程度要求都很高。

举一个日常工作中最常见的需求，通过一次数据分析发现，产品的流失用户占比提升，经过讨论，大家认为一次结合利益点的push推送是召回流失用户的有效且快速的手段；同时push作为各个业务都在争取的有限资源，希望可以提高使用效率，确保push这个资源渠道的整体ROI。以上需求希望画像可以支持。

思路拆解：从这个需求背景中，我们做一次关键词提取，不难发现，关键词是“流失用户”“利益点”“push”“效率”。其中“流失用户”是用户身份识别，“利益点”是用户优惠敏感度，“push”是产品渠道资源，“效率”意味着要尽可能确保全选人群精准，不能为了覆盖率牺牲准确率。

思路拆解完毕，具体落地就简单多了，参考步骤如下。

第一步，确定流失用户的口径和标签。这里需要用到用户生命周期的划分，从中识别并标识出流失用户。

第二步，分析对流失用户拉回效果最好的利益点，例如优惠券、折扣、礼品或其他内容。这一步需要运营和数据开发人员根据日常经验和数据分析完成，对于画像的要求是基于分析结论，挖掘不同用户对于优惠折扣的敏感程度，这一点在前面介绍敏感度标签时有论述，最终目的是确保将每一分钱都花在刀刃上。

第三步，确定拉回的明确目标，是拉回规模还是准确率。通过需求分析可以确定，本次拉回在资源有限的情况下，需要提升人群识别的准确率。画像实现准确率的方法有两个，一是提升画像算法的准确率，这部分主要依赖算法本身，无法一蹴而就，因此这里选择第二个方法，即增加人群全选的条件，也就是新增标签，供圈选求交。

根据背景分析，我们可以增加流失用户关于push渠道打开意愿的标签，提高push资源的使用效率。

经过上述分析，需要生产的标签如下。

用户生命周期_流失。
用户折扣优惠敏感度。
push使用标签。这里可用统计型标签，例如push最近一次访问时间，在使用时设置

条件为“最近3天，最近7天”；也可用综合的算法挖掘型标签，即push渠道偏好。

通过以上需求分析和思路拆解，画像的建设过程应该比较明确了，这里再留一个思考的案例，可以尝试分析如何落地：平台新上一款商品，初期需要在某模块展示给目标用户做推广，同时尽量不打扰非目标用户，且不降低该资源位的整体转化效率。

思路拆解：商品的目标用户—商品可以按照哪些维度拆分关键信息？模块位置—用户的模块功能使用偏好是什么？准确率的要求—如何提升画像应用的准确率？

回答好以上问题，这个需求的标签便能顺利获得。

3
用于算法

用于算法，主要应用于搜索推荐、风控广告等策略方向。

标签除了用于基本的用户群体描述、定向营销和精细化运营，还有一个相对来说新颖又广泛的用途：用于各算法的各个环节。在召回和排序两大经典策略流程中，都可以用到用户画像，这里我们举一个画像在推荐系统召回层的应用案例。

需求背景：推荐系统的本质是从海量信息中计算用户最感兴趣的部分，对应推荐系统的“召回—粗排—精排”，是一个“层层精选”的过程。其中召回层是精选的第一道流程，为后续计算打分准备初步的兴趣候选集，这里候选集的生成方法之一就是用户画像法。下面仍然以电商业务为例，讲述如何用用户画像做兴趣召回。

思路拆解：召回的作用是粗筛，帮助推荐系统计算第一道用户兴趣池。这里用户对物品的兴趣可拆解为对商品品牌、类目和商品标签的兴趣，这就转化为前面介绍的内容了，用户标签中有品牌偏好标签、类目偏好标签和标签偏好标签，只需要在所有品牌、类目、标签下维护一个按照商品质量或者热度降序排列的列表，这样只要获取到用户标识，便能从用户画像中获取偏好的品牌、类目和标签。再从品牌、类目和标签下的商品列表中召回相应的商品，根据候选集大小的设计，做top k截断召回。这样，这部分商品就完成初步的召回，为进入下一个流程进行粗排和精排做好了准备。

文章来源：《数据产品经理：实战进阶》机械工业出版社 2020年9月出版

点击链接了解详情并购买

更多精彩回顾

干货 | 五千字长文带你快速入门FlinkSQL

震惊！这篇文章解读数据仓库、数据湖、数据中台等概念，竟然写了4万字！

Flink Client 实现原理与源码解析

大数据文章合集NO.2（第二期）

分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势

下载资料：长按扫码回复 数仓

希望这篇文章可以帮到你~
欢迎大家点个在看，分享至朋友圈

分享、收藏、赞、在看，四连击！

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

用户画像从0到100的构建思路

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

​用户画像从0到100的构建思路

您可能也对以下帖子感兴趣

用户画像从0到100的构建思路